提供者:刘晓
地址:http://kdd.ics.uci.edu/databases/auslan/auslan.html
简介
这些数据由Auslan(Australian Sign Language,澳大利亚手语)标志样本组成。从五个签名者那里收集了95个标志的例子,共有6650个标志样本。
数据集描述
- 数据类型: 多变量时间序列(multivariate time series)。
- 数据特征
- 数据来源:数据的来源Nintendo PowerGlove的原始测量数据。它通过PowerGlove串行接口连接到Silicon Graphics 4D / 35G工作站。
- 这款glove绝对属于”cheap and nasty”的范畴。位置信息是根据从glove发射器到位于监视器顶部的3个麦克风“L-Bar”的超声波辐射进行计算的。glove上有两个发射器和三个接收器。这允许计算4条信息:x(左/右),y(上/下),z(后/前)和roll(手掌向上或向下?)。 x,y和z以8位精度进行测量。 “x,y,z”不应该被认为是正常的三维正交基。特别地,z方向上的1个单位在x或y方向上与1个单位的距离不相似。这些x,y,z位置相对于手掌放在坐着的签名者大腿上时的校准点。卷(Roll)是4位。
- 这些数据容易受随机超声噪声引起的偶然“尖峰”的影响。已经发现中值滤波器对于解决这个问题是有益的。
- 手指弯曲是由前四个手指上的导电弯曲传感器产生的。值在0(直线)和3(完全弯曲)之间变化。精度是2位。glove会在这些弯曲传感器上自动应用迟滞过滤器。充其量,这些测量值应该被认真对待。
特别说明: “adam”数据集按照固定顺序进行采样 - 这意味着它们受到疲劳效应等影响。所有其他数据集都以随机顺序进行采样。 “waleed”和“stephen”数据集包含以“cal-”开头的符号。这些被认为是一种校准手段,但效果不佳。
预处理: 所呈现的数据是没有过滤的原始数据。
变量描述:
异常: x,y,z值偶尔会丢失。这些可以使用中值滤波器轻松修复。
- 其他相关信息: 每个实例的平均帧数是51,但从30到102不等。
- 数据格式: 数据以逗号分隔的文件包含上述所有属性。每个符号样本都存储在一个文件中。目录层次如下所示:
- 每个签名者都在一个单独的目录中。
- 每个来自签名者的会话都在一个子目录中。每个会话都由一个数字表示。
- 每个样本都位于一个文件中,该文件通过附加了该标记样本编号的样本进行命名。
- 文件名表示类。
数据集下载
allsigns.tar.gz (3.0M; 59.0M uncompressed)
更多的数据和信息可以在这里找到。
相关论文
[1] M. W. Kadous, GRASP: Recognition of Australian Sign Language using Instrumented Gloves, Honours thesis, School of Computer Science and Engineering, University of New South Wales, 1995.
[2] Kadous, M. W. Learning Comprehensible Descriptions of Multivariate Time Series. In Bratko, I., and Dzeroski, S., eds. Machine Learning: Proceedings of the Sixteenth International Conference, Morgan Kaufmann Publishers, San Francisco, CA.